Telegram Group & Telegram Channel
🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса

Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.


🛠 Как с этим справиться

1. Усиливаем вклад миноритарного класса в функцию потерь
Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.

2. Применяем регуляризацию на неразмеченных данных
Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.

3. Активный отбор редких примеров среди неразмеченного пула
Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.

4. Анализируем предсказания модели на неразмеченных данных
Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.

Библиотека собеса по Data Science



tg-me.com/ds_interview_lib/985
Create:
Last Update:

🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса

Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.


🛠 Как с этим справиться

1. Усиливаем вклад миноритарного класса в функцию потерь
Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.

2. Применяем регуляризацию на неразмеченных данных
Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.

3. Активный отбор редких примеров среди неразмеченного пула
Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.

4. Анализируем предсказания модели на неразмеченных данных
Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/985

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

The lead from Wall Street offers little clarity as the major averages opened lower on Friday and then bounced back and forth across the unchanged line, finally finishing mixed and little changed.The Dow added 33.18 points or 0.10 percent to finish at 34,798.00, while the NASDAQ eased 4.54 points or 0.03 percent to close at 15,047.70 and the S&P 500 rose 6.50 points or 0.15 percent to end at 4,455.48. For the week, the Dow rose 0.6 percent, the NASDAQ added 0.1 percent and the S&P gained 0.5 percent.The lackluster performance on Wall Street came on uncertainty about the outlook for the markets following recent volatility.

Newly uncovered hack campaign in Telegram

The campaign, which security firm Check Point has named Rampant Kitten, comprises two main components, one for Windows and the other for Android. Rampant Kitten’s objective is to steal Telegram messages, passwords, and two-factor authentication codes sent by SMS and then also take screenshots and record sounds within earshot of an infected phone, the researchers said in a post published on Friday.

Библиотека собеса по Data Science | вопросы с собеседований from es


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA